概述 Seatunnel 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark 和 Apache Flink之上,开源项目地址:https://github.com /apache/incubator-seatunnel 版本演变 Seatunnel原名为Waterdrop,在更名之后正式孵化为Apache项目,同时对于两个名字也对应了不同的版本,Waterdrop 指1.x版本,Seatunnel指2.x版本,对于1.x和2.x有以下区别: 关键功能 1.x 2.x 支持spark yes yes 支持flink no yes 主要开发语言 scala java 主要构建工具 sbt maven 为什么我们需要Seatunnel Apache Spark和Apache Flink对于分布式数据处理和流式数据处理来说是一个伟大的进步,但较高的使用门槛让数据处理人员需要学习 spark和flink复杂的运行机制和api才能够使用的更加顺畅,为降低数据处理门槛,且让spark和flink变得更加易用,减少学习成本,加快分布式数据处理在生产环境的落地,Seatunnel应运而生
PMC带你解读SeaTunnel2.3.9版本功能特性(讲师:王海林ApacheSeaTunnelCommitter&PMCMember)某政务行业基于SeaTunnel探索数据集成平台的架构实践孟小鹏某政务公司大数据技术经理 SeaTunnel二次开发进阶:企业级复杂场景下的亿万级数据处理与智能容错机制(讲师:史德昇某网络安全公司高级大数据工程师)从架构原理到落地实践:ApacheSeaTunnel×Cloudberry数据集成全解读 ApacheSeaTunnel接入MCP,解锁模型上下文协议超能力(讲师:张海成ApacheSeaTunnelContributor)把数套数据传输通道一键“折叠”成SeaTunnel:同程工程师周晓晨的实战笔记 (讲师:周晓晨同程旅行数据通道负责人)从“分散”到“统一”,中控技术利用SeaTunnel构建高效数据采集框架,核心数据同步任务0故障运行! :基于SeaTunnel迁移数据到AmazonAuroraDSQLSeaTunnel社区「Demo方舟计划」第一期:MySQLCDC实时同步至PostgreSQL实战(讲师:马全才奥克斯数仓开发工程师)
2022 年 3 月 12 日(星期六), Apache SeaTunnel 和 Apache Kyuubi 两大新锐社区携手,邀请来自 eBay、T3 出行、oppo 等团队的五位实战型专家,从技术实践到业务优化 SeaTunnel 和 Apache Kyuubi 两大新锐社区携手,精心筹备,为企业大数据开发者、开源技术爱好者带来一场技术盛宴。 & PMC 演讲主题:如何给 Apache SeaTunnel 贡献自定义插件 演讲概要:介绍如何从0到1地给 Apache SeaTunnel 贡献自定义插件,包括环境构建,代码编写,提交和 Review ,如何基于Apache SeaTunnel 打造特征数据平台产品,提升开发效率。 李心恺:DSS 一站式开发平台集成Apache Kyuubi 作为 SQL任务计算中间件的相关实践 Apache SeaTunnel & Apache Kyuubi 2022 联合 Meetup,见证中国大数据崛起
关于我 我是tyrantlucifer,目前是Apache SeaTunnel社区的PPMC & Committer,在一家不知名公司任职大数据开发工程师,工作方向主要聚焦于数据集成领域的探索和实践,平时也会用诸如 Spark、Flink这样的分布式计算引擎做一些业务数据处理的工作,我是一名纯粹的开源爱好者,喜好用爱发电,热爱写代码,今天很高兴能够再次受到社区邀请,在这里讲述我与Apache SeaTunnel的故事 参与SeaTunnel贡献 在我接触完WaterDrop的一两个月后,WaterDrop成功进入到Apache孵化器并改名为SeaTunnel,当时的我第一时间就萌生了想为SeaTunnel贡献的想法, 社区带给我的影响 在逐渐参与到深层次的Apache SeaTunnel的贡献过程中,我的角色从User,到一个Contributor,转变到一个Owner,角色的转换代表着身上所承担的责任和义务的转换, 尾篇 如果在Apache SeaTunnel使用过程中遇到问题或者咨询贡献相关事宜,有以下几种方式联系到我: Github:https://github.com/tyrantlucifer E-mail
本文将详细介绍SeaTunnel的JVM参数配置位置、参数优先级、核心调优参数及最佳实践。 1.配置文件位置SeaTunnel的JVM参数通过$SEATUNNEL_HOME/config/目录下的配置文件进行管理。 -Xms2g-Xmx2gjvm_client_options客户端(seatunnel.sh提交作业时)。用于解析配置、构建逻辑计划并提交给Master。 3.2堆外内存重要说明:你会发现SeaTunnel进程占用的物理内存(RSS)往往明显大于-Xmx设置的值。 原因:SeaTunnel底层网络通信基于Netty,大量使用堆外内存(DirectMemory)来零拷贝传输数据。
SeaTunnel 是一个非常好用的、超高性能的、分布式数据集成平台,架构于 Apache Spark 和 Apache Flink 之上,实现海量数据的实时同步与转换。 2021 年 12 月,SeaTunnel 正式通过世界顶级开源组织 Apache 软件基金会的投票决议,以全票通过的优秀表现正式成为 Apache 孵化器项目,成为 Apache 基金会中第一个诞生自中国的数据集成平台项目 特性 数据集成平台要围绕解决海量数据同步这一目标进行,核心理念是保持海量数据能快速同步的同时还能保持数据的一致性,具体到 Apache SeaTunnel 来说,Apache SeaTunnel 具有以下核心特性 在架构设计上,Apache SeaTunnel 参考了 Presto 的 SPI 化思想,有很好的插件化体系设计。 在技术选型时,Apache SeaTunnel 主要考虑技术成熟度和社区活跃性。 腾讯云:将业务服务的各种日志收集到 Apache Kafka 中,通过 Seatunnel 消费和提取 Apache Kafka 中的部分数据,然后存储到 Clickhouse 中。
MySQLCDC连接器会在启动阶段自动完成以下工作:根据指定时间戳定位对应的binlog文件与偏移量从该binlog位置开始读取变更事件自动跳过所有早于该时间点的历史事件通过引入“时间”这一更符合业务语义的维度,SeaTunnel 使用注意事项版本要求:需要SeaTunnel2.3.12或更高版本时间戳格式:必须使用Unix时间戳,单位为毫秒binlog可用性:确保指定时间点对应的binlog文件仍然可用时区考虑:时间戳基于UTC
SeaTunnel是一个分布式、高性能、易扩展、易使用、用于海量数据(支持实时流式和离线批处理)同步和转化的数据集成平台,架构于Apache Spark和Apache Flink之上。 上图所示内容引用了Apache SeaTunnel官网中的介绍。 Apache SeaTunnel环境依赖 SeaTunnel1.X支持Spark计算引擎,SeaTunnel2.X目前支持Spark/Flink两种计算引擎,在笔者的实际项目中使用的是SeaTunnel1 Apache SeaTunnel用户使用情况 目前有很多公司都在使用SeaTunnel,其中不乏大型公司,例如:中国移动、腾讯云、今日头条,还有笔者所在的中电科。 更加重要的是,SeaTunnel是首个进入Apache孵化的国人开源数据集成平台。 2.
汇总周期:2026年3月1日-2026年3月30日一、版本发布版本发布日期备注2.3.132026-03-14本月发布,新增50+功能特性,修复20+Bug下载地址:https://seatunnel.apache.org 完整贡献者名单:https://github.com/apache/seatunnel/graphs/contributors基础设施更新E2E测试Docker镜像切换到seatunnelhub仓库JDKDocker 数据统计指标3月数据版本发布1次(2.3.13)新增连接器5+个功能改进50+项Bug修复20+项贡献者50+人七、下月预告持续优化CDC同步性能增加更多云原生数据源支持完善Metrics和监控能力汇总编辑:SeaTunnel
main/HOCON.md 版本 1.x 支持spark 主要开发语言scala 主要构建工具sbt 2.x 支持spark 支持flink 开发java 主要构建maven 竞品 架构与工作流程 Apache 在架构设计上,Apache SeaTunnel 参考了 Presto 的 SPI 化思想,有很好的插件化体系设计。 在技术选型时,Apache SeaTunnel 主要考虑技术成熟度和社区活跃性。 Spark、Flink 都是非常优秀并且流行的大数据计算框架,所以 1.x 版本选了 Spark,2.x 版本将架构设计的更具扩展性,用户可以选择 Spark 或 Flink 集群来做 Apache SeaTunnel 的计算层,当然架构扩展性的考虑也是为以后支持更多引擎准备,说不定已经有某个更先进的计算引擎在路上,也说不定 Apache SeaTunnel 社区自己会实现一个为数据同步量身打造的引擎。 如下图是 Apache SeaTunnel 的整个工作流程,数据处理流水线由 Source、Sink 以及多个 Transform 构成,以满足多种数据处理需求: 如果用户习惯了 SQL,也可以直接使用
有关运行时插件加载机制的信息,请参阅插件管理与发现(https://deepwiki.com/apache/seatunnel/4.1-plugin-management-and-discovery)。 位于seatunnel - dist/src/main/assembly/assembly - bin - ci.xml 144 - 161(https://github.com/apache/seatunnel ,而位于seatunnel - dist/src/main/assembly/assembly - bin.xml 204 - 216(https://github.com/apache/seatunnel 连接器依赖管理在seatunnel - dist/pom.xml 162 - 205(https://github.com/apache/seatunnel/blob/02c7eb31/seatunnel 位于seatunnel - dist/src/main/docker/Dockerfile 1 - 18(https://github.com/apache/seatunnel/blob/02c7eb31
今年的开源之夏活动已接近尾声,Apache SeaTunnel 社区的开发者们在经过漫长的开发过程也都收获了自己的成果。 项目名称Apache SeaTunnel支持metalake开发在2025年开源之夏活动中,我参与了Apache SeaTunnel项目的开发,目标是解决任务配置中敏感信息暴露的问题。 在项目的实现过程中,我也考虑到系统的扩展性,因此我设计了一个插件化接口,使得系统不仅可以与Apache Gravitino集成,还能支持其他数据目录服务如UnityCatalog或DataHub。 同时,为了更好地了解同学们在参与开源之夏项目中的开发心得和感受,Apache SeaTunnel 对同学们进行了简短的采访,以下为采访实录:Q1:在众多项目中,为什么选择参与SeaTunnel的项目? A: 首先因为SeaTunnel项目属于Apache社区,Apache社区一直以来都有很高的声誉,参与这样的项目对我来说是一次宝贵的机会。
SeaTunnel正式通过世界顶级开源组织Apache软件基金会的投票决议,以全票通过的优秀表现正式成为Apache孵化器项目! 图来源于Apache基金会邮件列表 根据Apache官方网站显示:针对SeaTunnel进入Apache的投票全部持赞同意见,无弃权票和反对票,投票顺利通过。 Apache SeaTunnel是中国开发者主导的项目,也是Apache基金会中第一个诞生自中国的数据集成平台项目。 同样,Seatunnel是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark和Apache Flink之上。 一些相关网站如下: 问题&建议 https://github.com/apache/incubator-seatunnel/issues 贡献代码 https://github.com/apache/incubator-seatunnel
完整版ReleaseNote:https://github.com/apache/seatunnel/releases/tag/2.3.1301新增CheckpointAPI,任务容错能力进一步增强在数据同步任务中 这些更新显著提升了SeaTunnel在数据库与Lakehouse场景的适配能力和数据管道构建效率。 同时,感谢所有志愿者的辛勤付出与支持,正是有了你们,SeaTunnel社区才能不断发展壮大! SimChou,StevenZhao,wanmingshi,wtybxqm,yzeng1618,zhan7236,zhangdonghao,zhuxt2015,zy下载与体验下载地址:https://seatunnel.apache.org /download版本升级指南:https://seatunnel.apache.org/docs/upgrade-guideNote:升级建议如果你当前使用的是ApacheSeaTunnel2.3.x
Apache SeaTunnel 原名 Waterdrop,在 2021 年 10 月更名为 SeaTunnel 并申请加入 Apache孵化器。 2023 年 5 月 17 日,Apache 董事会通过 Apache SeaTunnel 毕业决议,结束了为期 18 个月的孵化,正式确定 Apache SeaTunnel 成为 Apache 顶级项目 Apache 官方博客发布了 Apache SeaTunnel 毕业的消息: 图1:Apache 官网截图 关于 Apache SeaTunnel Apache SeaTunnel 是新一代高性能、分布式 十八个月之后,Apache SeaTunnel 顺利毕业成为 ASF 顶级项目,我的期许是:Apache SeaTunnel【启航星辰大海】! SeaTunnel SeaTunnel 官网: https://seatunnel.apache.org/ 下载地址:https://seatunnel.apache.org/download GitHub
以下是近期TopPR的详细盘点与分析:1.新连接器与生态扩展社区正在不断扩展SeaTunnel的数据集成边界,不仅关注传统的数据库,也开始接入SaaS和云原生服务。 3.Zeta核心引擎稳定性作为SeaTunnel的自研引擎,Zeta的稳定性是重中之重。
结合Markdown解析能力,SeaTunnel现在可以直接构建从“非结构化文档”到“向量数据库”的完整RAG(检索增强生成)数据管道。 这里可以预览生成的向量}}源码导读Markdown解析核心:MarkdownReadStrategy.java该类利用flexmark-java库实现了对MarkdownAST的遍历,将非结构化文本转化为SeaTunnel
的实现是直接标记失败,之后从检查点恢复,目前我采用的是标记失败的策略,考虑的点是,主动回滚开发相当麻烦,可能还需要flinkck进行适配,直接让schema变更失败时抛出异常,让现有的重试机制处理就行,而且也观察到SeaTunnel
Apache SeaTunnel 原名 Waterdrop,在 2021 年 10 月更名为 SeaTunnel 并申请加入 Apache孵化器。 2023 年 5 月 17 日,Apache 董事会通过 Apache SeaTunnel 毕业决议,结束了为期 18 个月的孵化,正式确定 Apache SeaTunnel 成为 Apache 顶级项目 Apache 官方博客发布了 Apache SeaTunnel 毕业的消息: 图1:Apache 官网截图 关于 Apache SeaTunnel Apache SeaTunnel 是新一代高性能、分布式 十八个月之后,Apache SeaTunnel 顺利毕业成为 ASF 顶级项目,我的期许是:Apache SeaTunnel【启航星辰大海】! SeaTunnel SeaTunnel 官网: https://seatunnel.apache.org/ 下载地址:https://seatunnel.apache.org/download GitHub
RowKindExtractor 是 Apache SeaTunnel 的一个转换插件,它能将 CDC 数据流转为 Append-Only 模式,并提取原始 RowKind 信息为新字段。本文将介绍 RowKindExtractor 的核心功能,其在 CDC 数据同步场景下的使用方法,以及配置选项、注意事项及多种应用示例。